بهبود نتایج حاصل از موتورهای جستجو با شبیه سازی رفتار هوشمند یک انسان خبره

پایان نامه
چکیده

امروزه وب یکی از اساسی ترین منابع کسب اطلاعات برای مردم جهان محسوب می شود. این پدیده بسیار گسترده و درحال تغییر، مجموعه ای از داده های متنوع و بدون ساختار با تعداد ابعاد بالا است که با سرعت فزاینده ای در حال گسترش است. این ویژگیها باعث می شوند که با توسعه ی وب، یافتن اطلاعات مورد نیاز در آن سخت تر و سخت تر شود و به همین دلیل موتورهای جستجو به عنوان ابزارهایی ساده و قابل دسترس برای جستجوی اطلاعات در وب مورد توجه قرار گیرند. در بسیاری از موتورهای جستجوی امروزی جستجو بر مبنای کلمات انجام می گیرد. به این ترتیب که کاربر بر اساس اطلاعات مورد نیاز خود، کلماتی را به عنوان درخواست وارد می کند و جستجو بر مبنای این کلمات صورت می پذیرد. به این ترتیب روشن است که دقت نتایج حاصل، بیش از هرچیز دیگری وابسته به درخواست کاربران است. از طرف دیگر بسیاری از کاربران در وب به دلیل عدم آشنایی با موضوع مورد جستجو و یا عدم آشنایی با فرایند جستجو در وب قادر به صدور درخواستهایی که بتوانند توصیف دقیقی از اطلاعات مورد نیاز آنها ارائه دهند، نیستند. ابهام در کلمات نیز مشکل را دوچندان می کند. هدف ما در این پایان نامه ارائه ی روشی برای بهبود عملکرد موتورهای جستجو بر مبنای رفتار کاربران است به گونه ای که قادر باشد برخی از مشکلات الگوریتمهای فعلی مثل زمانبر بودن، مشکل در انتخاب کلمات و نیاز به تعداد زیاد اسناد مرتبط را حل می کند. در این پایان نامه روشی جدید را برای توسعه ی درخواستها در وب ارائه کردیم که می تواند باعث بهبود عملکرد یک موتور جستجو شود و رضایت کاربران را افزایش دهد. این روش بر مبنای عملکرد کاربران در جستجوی وب ارائه شده است. ترکیب lsa و بازخورد ربط در روش پیشنهادی ضمن هماهنگی با شیوه ی رفتار انسانها در هنگام جستجوی وب، برخی از ضعفهای دو روش را نیز برطرف می کند. همانطور که پیش از این گفته شد، روش بازخورد ربط به طور پایه با استفاده از الگوریتم rocchio پیاده سازی شده و موثرترین عملکرد خود را در اولین تکرار دارد. یکی از مشکلات این روش برای هماهنگی با موتورهای جستجوی فعلی انتخاب کلمات مناسب است. در این پایان نامه در مرحله ی بازخورد از کابران خواسته می شود تا ? سند را به عنوان اسناد مرتبط از بین نتایج حاصل از جستجوی درخواست اولیه انتخاب کنند. این اسناد به پنجره هایی دارای همپوشانی تجزیه شده و ماتریس حاصل به عنوان ورودی به تکنیک lsa سپرده می شود. یکی از مشکلات روش lsa زمانبر بودن آن است که در اینجا با کوچک شدن ورودی این مشکل دیگر مطرح نیست. با انتخاب اسناد مرتبط در واقع کاربر متنی (context) را برای بیان معنی کلماتی که در درخواست اولیه ارائه کرده است، مشخص می نماید. با سپردن داده های حاصل از این مرحله به lsa در واقع سعی می کنیم هر کلمه ی درخواست را معنی کنیم. به این ترتیب که کلمات مرتبط (هم معنی در متن مشخص شده) با هر کلمه ی درخواست را از متن حاصل از مرحله ی بازخورد، استخراج می نماییم. برای تعیین کلمات هم معنی در این فضا، آنها را در این فضای جدید که فضای معانی یا عناوین نامیده می شود، خوشه بندی می کنیم. برای این کار از سه روش که هریک را پیش از این به تفصیل شرح داده ایم استفاده شده است. 1- هر یک از ابعاد در فضای جدید نماینده ی یک عنوان هستند . هر کلمه را به عنوانی اختصاص می دهیم که بیشترین اهمیت را در آن topic دارد. 2- روش خوشه بندی k-means 3- روش خوشه بندی hierarchical سپس از بین کلمات موجود در خوشه هایی که کلمات درخواست اولیه در آن کلاسترها قرار دارند، آنهایی را که در تعداد بیشتری از عناصر داده ای تکرار شده اند انتخاب کرده و درخواست را با استفاده از آنها توسعه می دهیم . مجموعه ی درخواستهای تولید شده توسط هر یک از روشهای مطرح شده ی بالا در پاسخ به درخواستهای مجموعه ی تست در موتور جستجوی گوگل توسط کاربران ارزیابی شده و با نتایج حالت اولیه و روش rocchio مقایسه شده اند. این مقایسه بر اساس میانگین معیار bpref روی مجموعه ی تست و محاسبه ی سطح معنی داری برای تفاوت میانگینها انجام شده است. هر سه روش پیشنهاد شده در میانگین بهبودهایی را نسبت به حالت اولیه و rocchio نشان می دهند روشهای اول و دوم آزمون معنی داری آماری را برای تفاوتشان با حالت اولیه و الگوریتم rocchio با موفقیت می گذرانند، ولی روش سوم خیر. به این ترتیب روی مجموعه تست ما و در یک شرایط واقعی روشهای اول و دوم پیشنهادی به میزان قابل توجهی رضایت کابران را افزایش می دهند و روش اول بهترین عملکرد را دارد. این بهبود عملکرد نتیجه ی دو رخداد است. یکی افزایش تعداد اسناد مرتبط نمایش داده شده و دیگری رتبه بندی (رنکینگ) آنها در موقعیتی بالاتر از اسناد نامرتبط. اگر به مثالهای نمایش داده شده در بخش پیش دقت شود روشن است که کلمات انتخاب شده توسط روش اول، کلماتی تخصصی تر و دقیقتر هستند و همانطور که نتایج مشخص می کنند منجر به نتایج دقیقتری نیز می شوند. علت این امر این است که این کلمات بر اساس ارتباط مفهومیشان با کلمات درخواست در متن (context) مشخص شده توسط اسناد مرتبط انتخاب می شوند و نه صرفا بر اساس وزنشان در مجموعه ی کلمات. به عبارت دیگر ممکن است کلمه ای که بیشترین وزن را دارد به دلیل عدم ارتباط مفهومی با کلمات کلیدی انتخاب نشود.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

شخصی سازی موتورهای جستجو با استفاده از روش های هوشمند

امروزه رشد و تغییر نمایی در حجم اطلاعات وب موجب عدم دسترسی سریع و آسان کاربران به اطلاعات مورد نیازشان شده است. اگرچه بکارگیری ابزارهایی مثل موتورهای جستجو می تواند به کاربران در یافتن اطلاعات مورد نیازشان کمک نماید و باعث تسریع و تسهیل دسترسی به اطلاعات وب شود، اما حجم اطلاعاتی که موتورهای جستجو به کاربر تحویل می دهند، معمولا بسیار بیشتر از آن است که قابل پردازش سریع توسط کاربر باشند. علاوه بر...

15 صفحه اول

موتورهای جستجو در اینترنت

شاید تاکنون در مورد اینترنت و موتورهای جستجوگر مطالب زیادی شنیده و خوانده باشید. ما در اینجا سعی در معرفی مجدد تعدادی از آنها بصورتی بسیار فشرده و مختصر داریم تا در زمان کمتر بتوانید به اطلاعات مورد نیاز خود برسید. همچنین سعی می کنیم به معرفی تعدادی از سایتهای اطلاعاتی با کاربری بالا بپردازیم.

متن کامل

روبات شبیه سازی از دست انسان با پنج درجه آزادی

در پژوهش حاضر با در نظر گرفتن اینکه ربات همانند دست انسان است و از نوع ربات های بازو می باشد. این دست روباتیک بسیار ساده بوده و می تواند در زمینه های مختلفی کاربرد داشته باشد، از بهبود یافتن اندامهای مصنوعی گرفته تا پیاده سازی و قطعه قطعه کردن مواد منفجره، نیازمند کنترل حرکت پنجه روبات بر روی مسیری با معادله نامعین است.  قابلیت خاص این روبات، شباهت اندامی بسیار زیاد آن به دست انسان می باشد. در ...

متن کامل

بررسی استفاده از تکنیک های هوش مصنوعی برای بهبود نتایج موتورهای جستجو

بهبود نتایج موتورهای جستجو و رتبه بندی آن ها با توجه به پروفایل کاربر موضوع اصلی این پایان نامه می باشد که بدین منظور از تکنیک های هوش مصنوعی مانند الگوریتم های ژنتیک و تکنیک های فازی برای شاخص بندی و رتبه بندی در یک موتور جستجو استفاده گشته است. نگارش مستندات به فضای برداری و خوشه بندی مستندات نیز همچون راهکاری برای نزدیک شدن به علایق کاربر و رتبه بندی نتایج پیاده سازی گشته است. الگوریتم های ک...

15 صفحه اول

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023